WORK IN PROGRESS
1 tl;dr
In diesem Modul lernen Sie das Handwerk der Prognose: Auf Basis von Fakten (Daten) den (noch unbekannten) Wert einer Zielvariablen vorherzusagen. Zum Beispiel wieviel Umsatz von einem Kunden mit einem bestimmten Profil im Schnitt zu erwarten ist. Damit lernen Sie die Grundkompetenzen zum Berufsbild Data Scientist – ein angesagtes Berufsbild unserer Zeit. Außerdem lernen Sie etwas Handwerkszeug der (quantitativen) Forschung; der überwältigend große Teil der Forschung basiert auf Ideen, von denen Sie ein paar in diesem Kurs lernen.
2 Hinweise
Dieser Kurs ist lizensiert unter der MIT Lizenz. Das ist eine permissive Lizenz, die erlaubt, dass Sie diesen Kurs frei verwenden können. Sie haben (nur) die Verpflichtung, zu zitieren und auf die Lizenzart hinzuweisen.
Mitarbeit oder Verbesserungsvorschläge: am besten als Github Issue einstellen.
3 Didaktik
3.1 Literatur
Zentrale Begleitlektüre ist Sauer (2019).
4 Vorbereitung vor dem Kurs
4.1 Installation von R und seiner Freunde
- Installieren Sie R und seine Freunde.
- Installieren Sie die folgende R-Pakete:
- tidyverse
4.2 Daten
- Saratoga Houses
5 Themen
5.1 Grundbegriffe
5.1.1 Lernziele
- Sie kennen zentrale Begriffe im Kontext der Datenanalyse.
- Sie können den Unterschied zwischen Signal und Rauschen erklären.
5.1.2 Literatur
- MODAR Kap. 1
5.1.3 Folien
5.1.4 Videos
5.1.5 Syntax
- [Syntax zu den Folien von Thema 1]https://sebastiansauer.github.io/vorhersagemodellierung/Skript-Syntax/QM1-Thema1-Skript-Syntax.html
5.2 ERRRstkontakt
5.2.1 Lernziele
- Sie können R starten.
- Sie können grundlegende Operationen in R durchführen.
5.2.2 Literatur
- MODAR Kap. 2-4
5.3 Datenimport
5.3.1 Lernziele
- Sie können Daten (verschiedener Formate) in R importieren.
- Sie kennen einige Datenstrukturen in R.
5.3.2 Literatur
MODAR Kap. 5-6
5.3.3 Videos
5.4 Datenjudo
5.4.1 Lernziele
- Sie können Daten in R aufbereiten mit dem Tidyverse.
5.4.2 Literatur
- MODAR Kap. 7
5.4.3 Videos
5.4.4 Vertiefung
5.5 Deskriptive Statistik
5.5.1 Lernziele
- Sie beherrschen grundlegende Operationen der univariaten deskriptiven Statistik sowohl für Lage- als auch Streuungsmaße.
- Sie verstehen die Grundkonzepte der Korrelation und können diese in R berechnen.
5.5.2 Literatur
- MODAR Kap. 8
5.6 Praxisprobleme der Datenaufbereitung
5.6.1 Lernziele
- Sie wissen mit typischen Problemen der Datenaufbereitung umzugehen, wie mit fehlenden Werten, Datenanomalien oder Formatänderung der Tabelle.
- Sie kennen die grundlegenden Eigenschaften der Normalverteilung.
5.6.2 Literatur
- MODAR Kap. 9
5.6.3 Videos
5.7 Datenvisualisierung
5.7.1 Lernziele
- Sie können Daten visualisieren, um wesentliche Einsichten zu vermitteln.
5.7.2 Literatur
MODAR Kap. 11
5.7.3 Videos
5.8 Fallstudie-EDA
5.8.1 Lernziele
- Sie können die gelernten Techniken der explorativen Datenanalyse praktisch anwenden.
5.8.2 Literatur
- NA NA
5.8.3 Videos
5.8.4 Fallstudien
5.9 Modellieren
5.9.1 Lernziele
- Sie verstehen die Methoden des Modellierens.
5.9.2 Literatur
- MODAR Kap. 15
5.10 Regression
5.10.1 Lernziele
- Sie verstehen die Grundkonzepte der Regression und können diese in R anwenden.
5.10.2 Literatur
- MODAR Kap. 18
5.10.3 Videos
5.11 Klassifikation
5.11.1 Lernziele
- Sie verstehen die Grundkonzepte der logistischen Regression und können diese in R anwenden.
5.11.2 Literatur
- MODAR Kap. 19
5.12 Fallstudie-Regression
5.12.1 Lernziele
- Sie können die gelernten Techniken der Regressionsanalyse praktisch anwenden.
5.12.2 Literatur
- NA NA
5.12.3 Videos
5.13 Fallstudie-Modellieren
5.13.1 Lernziele
- Sie können die gelernten Techniken de Modellierens in der Statistik praktisch anwenden.
5.13.2 Literatur
- NA NA
5.13.3 Videos
6 Prüfung
Bei der Prüfung handelt es sich um einen Prognosewettbewerb.
Vorhersagen sind eine praktische Sache, zumindest wenn Sie stimmen. Wenn Sie den DAX-Stand von morgen genau vorhersagen können, rufen Sie mich bitte sofort an. Genau das ist Ihre Aufgabe in dieser Prüfungsleistung: Sie sollen Werte vorhersagen.
Etwas konkreter: Stellen Sie sich ein paar Studentis vor; von allen wissen Sie, wie lange die Person für die Statistikklausur gelernt hat. Außerdem wissen Sie die Motivation jeder Person und vielleicht noch ein paar noten-relevante Infos. Und Sie wissen die Note jeder Person in der Statistikklausur. Auf dieser Basis fragt sie ein Student (Alois), der im kommenden Semester die Prüfung in Statistik schreiben muss will: “Sag mal, wenn ich 100 Stunden lerne und so mittel motiviert bin, welche Note kann ich dann erwarten?”. Mit Hilfe Ihrer Analyse können Sie diese Frage beantworten. Natürlich könnten Sie es sich leicht machen und antworten: “Mei, der Notendurchschnitt war beim letzten Mal 2.7. Also ist das kein ganz doofer Tipp für deine Note.” Ja, das keine doofe Antwort, aber man kann es besser machen. Da hilft Ihnen die Statistik (doch, wirklich).
Kurz gesagt gehen Sie so vor: Importieren Sie die Daten in R, starten Sie die nötigen R-Pakete und schauen Sie sich die Daten unter verschiedenen Blickwinkeln an. Dann nehmen Sie die vielversprechendsten Prädiktoren in ein Regressionsmodell und schauen sich an, wie gut die Vorhersage ist. Wiederholen Sie das ein paar Mal, bis Sie ein Modell haben, das Sie brauchbar finden. Mit diesem Modell sagen Sie dann die Noten der neuen Studis (Alois und Co.) vorher. Je genauer Ihre Vorhersage, desto besser ist Ihr Prüfungsergebnis.
6.1 Hinweise zur Prüfung
7 Literatur
Sauer, S. (2019). Moderne Datenanalyse mit R: Daten einlesen, aufbereiten, visualisieren und modellieren. 1. Auflage 2019. FOM-Edition. Springer.
8 Kudos
Beim Schreiben dieses Kurses habe ich auf der Vorarbeit vieler Menschen aufgebaut. Viele Menschen haben mich unterstützt, großzügig und auf verschiedene Weise.
Einige möchte ich herausgreifen, um Danke zu sagen:
- Kollegis wie Karsten Lübke, von denen ich viel gelernt habe.
- Alle Open-Source-Entwickler, die Projekte wie dieses überhaupt erst möglichen machen. 💌